Pensamiento Visual Iterativo: Autocorrección Espacial en Modelos Visión-Lenguaje
Descubre cómo IVT enseña a modelos visión-lenguaje a corregir sus errores espaciales: precisión 82% y degradación 5x menor.
Descubre cómo IVT enseña a modelos visión-lenguaje a corregir sus errores espaciales: precisión 82% y degradación 5x menor.
Los agentes autónomos de IA superan en un 26.5% a los ingenieros humanos en el diseño de políticas robóticas, según el benchmark EmboCoach-Bench.
Descubre cómo un nuevo enfoque de RL auto-supervisado mejora el razonamiento espacial en IA usando verificación de consistencia geométrica, sin datos etiquetados.
Descubre OMAD, el primer marco MARL en línea con políticas de difusión que mejora 2.5x a 5x la eficiencia de muestras en tareas multiagente.
Optimiza problemas complejos de RL con PKPO. Aprende cómo esta técnica mejora pass@k y pass@1, impulsando la exploración y el rendimiento colectivo.
Aprende cómo PKPO transforma la recompensa para optimizar conjuntos de muestras, resolviendo problemas de RL más difíciles con mejor exploración.
IAPO: un algoritmo de RL que mejora la capacidad de llamar a herramientas en agentes multimodales pequeños, logrando un 3% más de precisión en VQA.
PAWS alinea entrenamiento e inferencia en aprendizaje por preferencias usando segmentos ponderados por ventaja. Mejora políticas.
Descubre cómo Reverse Flow Matching unifica métodos de difusión y flujo en RL online, mejorando la eficiencia y estabilidad del entrenamiento con Q-learning.
Aumenta un 3% la precisión en VQA con IAPO, algoritmo RL que alinea la atribución de entrada en agentes multimodales pequeños. ¡Descubre cómo!
RLCSD mejora el razonamiento en modelos de IA al corregir la deriva de estilo inducida por privilegios. Descubre cómo supera a GRPO en tareas lógicas y matemáticas.
Descubre PAWS, un innovador método de aprendizaje por refuerzo basado en preferencias que mejora la asignación temporal de crédito usando ventajas por segmentos
La arquitectura del crítico en RL para humanoides es clave: la crítica dual alcanza objetivos 3.5 veces más rápido y duplica la eficiencia frente a la unificada. Descubre por qué.
APPO mejora el aprendizaje por refuerzo en agentes de IA asignando crédito preciso a decisiones intermedias. Resultados en 13 benchmarks.
Aprende cómo Visual-SDPO optimiza la generación de gráficos, webs y presentaciones con IA, reduciendo defectos visuales mediante autodestilación.
DiRL: marco de RL que distingue razonamiento de memorización en LLMs, mejorando exploración y resultados en benchmarks.
La decodificación Bellman-Taylor optimiza políticas en MDP con acciones estado-dependientes, superando RL tradicional. Resultados óptimos en control de colas.
BFQ revoluciona el RL offline: genera acciones en un solo paso sin denoising, más rápido y expresivo que modelos de difusión. Mejora rendimiento en D4RL.
CPPO mejora la estabilidad y precisión del razonamiento en LLMs al superar las regiones de confianza uniformes. Nuevo enfoque de optimización.
CPPO mejora el razonamiento de LLM al reemplazar la confianza uniforme por divergencia de prefijo acumulativa. Mayor estabilidad y precisión.